Evaluación de generalización semántica en LLMs con construcciones frasales
Estudio revela que los LLMs como GPT-o1 fallan al generalizar construcciones frasales sintácticamente idénticas, con una caída de rendimiento del 40%.
Estudio revela que los LLMs como GPT-o1 fallan al generalizar construcciones frasales sintácticamente idénticas, con una caída de rendimiento del 40%.